對比資料利用模式:標註範疇
機器學習模型的成功部署,關鍵在於標註資料的可取得性、品質與成本。在人工標註昂貴、不可行或高度專業化的環境中,傳統模式會變得效率低下甚至完全失效。我們提出『標註範疇』的概念,根據資訊使用方式區分出三種核心方法:監督式學習(SL)、非監督式學習(UL)以及半監督式學習(SSL)。
1. 監督式學習(SL):高準確度,高成本
監督式學習在每個輸入 $X$ 都明確配對已知真實標籤 $Y$ 的資料集上運作。雖然此方法通常能為分類或迴歸任務帶來最高的預測準確度,但其對密集且高品質標註資料的依賴,使得資源消耗極大。若標註樣本稀少,性能會急劇下降,導致該模式脆弱不堪,對於龐大且持續演變的資料集而言,經濟上常難以維持。
2. 非監督式學習(UL):潛在結構探勘
非監督式學習僅處理未標註資料 $D = \{X_1, X_2, ..., X_n\}$。其目標是推斷資料流形內的固有結構、底層機率分布、密度,或有意義的表示方式。主要應用包括聚類、流形學習與表示學習。非監督式學習在資料前處理與特徵工程方面極具成效,能在無需外部人為介入的情況下提供寶貴洞見。
問題 1
哪一種學習模式專門設計用於藉由大量未標註資料,減輕對昂貴人工資料標註的高度依賴?
問題 2
如果模型的主要任務是降維(例如尋找主成分)或聚類,哪一種模式被普遍採用?
挑戰:定義半監督式學習的目標
整合損失函數的構思
與僅依據標註資料準確度進行優化的監督式學習不同,半監督式學習需要一種平衡的優化策略。總損失必須同時捕捉在標註資料集上的預測準確度,並在未標註資料集上強制執行一致性(例如平滑性或低密度分離)。
給定:$D_L$:標註資料。$D_U$:未標註資料。$\mathcal{L}_{SL}$:監督式損失函數。$\mathcal{L}_{Consistency}$:在 $D_U$ 上強制預測平滑性的損失。
給定:$D_L$:標註資料。$D_U$:未標註資料。$\mathcal{L}_{SL}$:監督式損失函數。$\mathcal{L}_{Consistency}$:在 $D_U$ 上強制預測平滑性的損失。
第一步
請寫出總體最佳化目標 $\mathcal{L}_{SSL}$ 的一般形式,並包含一個權重係數 $\lambda$,以控制未標註一致性項的影響。
解答:
半監督式學習總損失的概念形式是兩個組成部分的加權和:$\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$。其中純量 $\lambda$ 控制著標註忠誠度與結構依賴之間的權衡。
半監督式學習總損失的概念形式是兩個組成部分的加權和:$\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$。其中純量 $\lambda$ 控制著標註忠誠度與結構依賴之間的權衡。